La structure thème-rhème pour l'ordonnancement de documents en recherche d'information

نویسندگان

  • Liana Ermakova
  • Josiane Mothe
چکیده

RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une représentation par sac de mots. Cependant, les modèles existants ne sont pas capables de capter la distribution entre l’information déjà connue et l’information nouvelle apportée par l’énoncé. L’objectif principal de ce papier est de proposer l’utilisation de la structure thème-rhème pour le ré-ordonnancement de documents en recherche d’information. Nous avons analysé manuellement la structure thème-rhème des documents issus de trois collections: Wikipédia, TREC Robust et WT10G. Grâce à cette analyse, nous avons introduit une méthode complètement automatique pour annoter la structure informationnelle. Elle s’appuie sur l’hypothèse que le thème a tendance à être positionné au début des phrases. La structure thème-rhème est identifiée automatiquement à partir des premiers documents retrouvés qui sont ré-ordonnés selon cette structure intégrée dans le formalisme BM25F . Cette méthode n’exige qu’une analyse syntaxique de surface, à savoir le découpage en phrases et le balisage des parties de discours. L’évaluation sur les collections TREC montre que notre méthode améliore significativement les résultats de recherche d’information par rapport aux systèmes de l’état de l’art.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Traitement d'attributs inter-dépendants pour la recherche d'information par treillis

HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...

متن کامل

Compression de structure XML pour la recherche d'information structurée

RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...

متن کامل

Apprentissage d'ordonnancements en recherche d'information structurée

RÉSUMÉ. Nous présentons un modèle d’apprentissage pour la Recherche d’Information Structurée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnance...

متن کامل

Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information

RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...

متن کامل

Expansion de requêtes pour la recherche d'information multilingue

1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 20  شماره 

صفحات  -

تاریخ انتشار 2017